China i 会 (不甘 二 
ChinaXiv 合 作 期 刊 


&) d 54i x (t 


第 64 卷 第 1 期 2020 ££ 1 H 


中 外 情报 学 论文 创新 性 特征 研究 


B 曹 树 金 ” 闫 欣 阳 WE FPR 
中 山大 学 资讯 管理 学 院 JM 510006 


摘 要 : [目的 /意义 ] 综合 运用 定性 与 定量 相 结合 的 方法 对 近年 中 外 情报 学 论文 的 创新 性 进行 分 析 和 对 比 ,揭示 情报 学 领 
域 研究 的 创新 性 特征 ,发 现 领域 学 术 论文 中 创新 句 内 部 的 知识 关系 ,进行 更 细 粒 度 的 论文 创新 性 分 析 , 为 研究 领 
域 创 新 点 深层 次 利用 提供 条 件 , 同 时 丰富 科技 论文 创新 性 监测 的 途径 ,促进 科学 研究 创新 。[ 方法 /过 程 ] 从 句子 
级 创新 性 识别 出 发 ,选取 中 英文 各 两 种 情报 学 期 刊 作 为 样本 ,采用 信息 抽取 和 机 器 学 习 的 方法 ,将 创新 句 的 抽取 
从 现 有 的 摘要 扩展 到 全 文 ,充分 利用 和 句子 结构 和 句法 特征 识别 领域 创新 内 容 , 探 讨 近 年 中 外 情报 学 论文 在 创新 对 
象 \ 主 题 \ 类 别 等 方面 的 特征 ,并 做 对 比分 析 , 最 后 通过 对 自动 分 类 的 论文 集合 进行 定性 的 内 容 分 析 , 总 结 归纳 出 
中 外 情报 学 论文 创新 的 表达 范式 。[ 结果 /结论 ] 从 创新 的 表达 来 看 ,中 外 情报 学 论文 创新 句 的 分 布 情况 基本 一 
致 ,英文 期 刊 论文 创新 的 表达 更 丰富 。 从 创新 性 特征 来 看 ,英文 情报 学 期 刊 论文 创新 主题 较 集中 ,而 中 文 主题 多 
样 和 分 散 ; 具 体 方法 的 创新 是 近年 情报 学 领域 的 创新 热点 ,而 在 研究 方法 上 创新 不 足 ; 中 英文 情报 学 期 刊 论文 的 
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2 


pir 10. 13266/j. issn. 0252 —3116.2020. 01. 011 


St Og" 一 个 人 的 研究 价值 不 在 于 他 投入 多 少 努 
为 = 相反 ,研究 的 价值 在 于 结果 的 创新 性 ""” 。 创 新 性 
是 竹 技 论文 学 术 质量 评价 的 重要 标准 ,是 决定 其 学 术 


水 平 的 核心 .关键 特质 及 发 表 与 否 的 首要 依据 。 大 
数据 时 代 , 对 于 研究 者 来 说 ,从 文献 中 快速 准确 地 获取 
创新 观点 是 亟待 解决 的 需求 ,从 学 科 的 宏观 角度 来 看 ， 
监测 创新 .促进 创新 也 是 科学 研究 发 展 的 本 质 要 求 。 
而 创新 本 身 及 其 表述 的 复杂 性 和 多 样 性 又 为 识别 创新 
特征 增添 了 难度 。 已 有 研究 从 事件 2 -1 epi mag 
子 "9 级 别 对 创新 特征 的 自动 识别 进行 了 探索 ,但 在 
实际 应 用 中 ,学 术 论文 创新 性 的 评价 , 仍 以 费时 费力 且 
主观 性 较 强 的 同行 评议 为 主要 手段 ,针对 学 术 论文 的 
创新 性 研究 仍 具有 较 大 的 发 展 空间 5 。 

抽取 领域 学 术 论文 集中 的 创新 点 进行 分 析 , 能 有 
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效 揭示 领域 的 创新 进展 以 及 创新 点 的 类 型 及 影响 ” 。 
本 研究 拟 对 情报 学 论文 的 创新 性 特征 进行 对 比 探究 ， 
从 句子 级 创新 性 识别 出 发 ,充分 利用 句子 结构 和 句法 
特征 ,采用 信息 抽取 和 机 器 学 习 的 方法 分 析 创 新 的 方 
面 \ 对象 及 主题 ,由 广 而 精 衡量 情报 学 研究 近年 的 创新 
特征 与 进展 。 本 研究 的 创新 之 处 在 于 ,将 创新 句 的 抽 
取 从 现 有 的 摘要 扩展 到 全 文 ,而 不 仅 停 留 在 摘要 集 层 
面 , 并 在 信息 抽取 和 机 器 学 习 的 方法 应 用 中 充分 融和 人 
句子 结构 信息 。 本 研究 的 目的 不 仅 在 于 揭示 某 一 领域 
的 创新 情况 ,更 重要 的 是 发 现 领域 学 术 论文 中 创新 句 
内 部 的 知识 关系 ,为 研究 领域 创新 点 的 深层 次 利用 提 
供 途 径 , 为 细 粒 度 知识 组 织 和 检索 奠定 基础 ,助力 大 数 
据 环 境 下 知识 的 推理 和 发 现 ,同时 丰富 科技 论文 创新 
性 监测 的 途径 ,最 终 达 到 促进 科学 研究 创新 的 目的 。 


2 文献 综述 


2.1 学 术 论 文 创新 性 的 涵义 与 表现 
对 于 “创新 性 ” ,很 难 给 出 一 个 精准 的 定义 。《 款 
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氏 词典 ) 将 “novelty” 定 义 为 “新 的 或 与 任何 熟悉 事物 不 
同 的 事物 ”" 。 创 新 信息 ( novel information) 是 指 包含 
新 内 容 的 句子 ,通常 被 定义 为 宛 余 的 反义词 5 。 在 本 
Allan 等 的 研究 中 ,创新 性 被 描述 为 基于 句子 中 存在 
的 新 单词 的 新 信息 。B. Uzzi 等 “认为 ,科学 创新 是 通 
过 激发 新 见解 的 原创 组 合 产 生 的 。 从 知识 组 合 的 角度 
来 看 ,创新 性 可 以 被 定义 为 以 前 所 未 有 的 方式 重新 整 
合 已 有 的 知识 ,这 种 组 合 的 观点 也 被 各 学 科 的 学 者 所 
谱 受 1 。 这 些 表述 的 核心 内 涵 基 本 一 致 ,主要 在 于 用 
“新 ”方式 组 合 已 有 的 或 新 的 知识 。 关 于 学 术 论文 的 
创新 性 , 周 露 阳 "9 认为 有 三 层 基本 含义 :四 与 已 有 学 
术 文献 “不 同 "的 论文 。 这 种 不 同 可 以 是 对 已 有 文献 
的 “局 部 改进 ”, 也 可 以 是 与 已 有 文献 完全 不 同 的 “全 
dine 这 种 不 同 是 “所 涉 学 术 领 域 之 知识 或 信息 ”的 
不 司 。@ 这 种 不 同 的 知识 或 信息 须 是 有 价值 "的 。 
本 琢 究 所 进行 的 学 术 论 文 创新 性 识别 , 即 对 论文 作者 
厦 娘 中 表述 的 研究 创新 之 处 进行 挖掘 和 特征 分 析 。 
205 学 术 论文 创新 性 评价 
长 期 以 来 ,人 文 社 科 期 刊 论文 的 学 术 创新 性 评价 
主要 包括 两 种 :以 同行 评价 为 主要 手段 的 定性 评 
多 和 基于 文献 计量 学 的 定量 评价 法 。 学 术 论 文 创新 
性 唐 价 的 文献 计量 法 包括 单个 特征 指标 评价 法 DU 
WT RE DUE Jie .指标 体系 评价 法 .基于 论文 内 容 的 
评价 法 等 。 同 行 评议 这 种 评价 方法 虽然 被 广泛 使 
脐 往 在 评议 的 过 程 中 存在 利益 冲突 、 主 观 性 强 、 操 作 
空间 大 、 耗 时 长 ,效率 低下 等 现 端 。 刘 丽 萍 和 刘 春 
Q^ 指出 同行 评议 的 弊端 主要 有 :该 方法 增加 了 编辑 
和 和 种 稿 人 之 间 的 利益 冲突 ,公众 评议 观点 受 质疑 , 审 稿 
人 刻意 评议 ,作者 违心 修改 论文 等 问题 。 

一 些 学 者 使 用 论文 的 单个 特征 指标 作为 论文 学 术 
创新 性 评价 指标 ,比如 以 论文 作者 的 h 指数 .论文 的 被 
引 量 、 论 文 参考 文献 的 影响 力 或 期 刊 的 影响 因子 等 单 
个 指标 为 主 的 评价 方法 "”" 。Y. Lee 等 "通过 计算 参 
考 文献 每 一 期 刊 对 的 相似 程度 ,将 论文 所 有 期 刊 对 的 
相似 程度 从 小 到 大 排列 并 取 前 10% 分 位 数 ,再 取 负 
数 , 所 得 数值 越 大 ,该 论文 的 新 颖 性 越 强 。L. Wu 等 
TE NATURE 上 提出 了 一 个 新 的 创新 测度 指标 Disrup- 
tion ,通过 划分 引文 结构 量化 论文 新 颖 性 。 也 有 学 者 综 
合 运用 社会 网 络 分 析 法 和 统计 学 方法 分 析 , 通 过 相关 
分 析 、 回 归 分 析 以 及 结构 方程 模型 等 验证 各 种 指标 与 
文献 创新 力 之 间 的 关系 * , 叶 继 元 ”从 社会 .经 济 文 
化 .政治 等 角度 解析 了 我 国学 术 期 刊 论文 质量 与 创新 
评价 体系 存在 的 整 端 和 原因 ,提出 了 形式 评价 内 容 评 


价 和 效用 评价 的 “三 位 一 体 ” 新 概念 组 合 ,对 我 国 社 科 
期 刊 论文 质量 评 佑 和 创新 测度 方面 的 研究 有 较 强 的 理 
论 指导 意义 。 

综 上 ,很 多 学 者 用 统计 学 方法 对 作者 声望 .期刊 影 
响 力 、 被 引 次 数 、 下 载 次 数 与 论文 创新 度 的 关系 进行 了 
实证 分 析 , 得 出 的 结论 各 有 不 同 , 但 基本 上 都 认为 仅 以 
这 些 指 标 去 衡量 论文 创新 性 是 不 科学 的 。 作 者 期刊 
或 者 参考 文献 的 影响 力 大 只 能 说 明文 章 在 学 术 价值 、 
内 容 质量 或 影响 力 方面 较 好 ,并 不 代表 论文 创新 度 高 ， 
因为 论文 的 被 引 量 和 下 载 量 受 时 间 、 作 者 和 机 构 因素 
的 影响 ,部 分 学 者 将 论文 影响 力 等 同 于 创新 力 , 这 显然 
是 片面 的 ,论文 创新 力 可 能 与 影响 力 有 相关 关系 ,但 并 
不 等 同 于 影响 力 。 其 次 新 前 性 不 等 于 创新 性 ,新 颖 性 
只 是 作为 论文 创新 的 必要 条 件 之 一 ,不 是 充分 条 件 ,有 
的 论文 虽然 研究 对 象 很 新 ,具有 独创 性 ,但 是 其 应 用 价 
值 和 实践 价值 不 高 ,或 者 其 论证 过 程 逻辑 不 合理 ,得 出 
的 结论 并 不 有 效 ,那么 即便 这 种 论文 有 很 强 的 独创 性 ， 
其 创新 价值 也 是 不 足 的 。 正 如 李 如 森 等 ”提出 科技 
论文 的 创新 点 应 分 为 主题 中 的 创新 点 、 技 术 背 景 中 的 
创新 点 技术 方法 中 的 创新 点 ,论文 结论 中 的 创新 点 和 
总 体 创新 点 ,并 且 指 出 论文 创新 成 果 应 具有 “独创 性 、 
新 家 性、 实用 性 ”三 个 特点 。 这 也 体现 了 论文 的 创新 不 
仅 要 在 理论 和 方法 上 有 创新 ,其 创新 成 果 还 应 是 有 效 
和 有 用 的 。 
男 外 ,采用 文献 计量 学 的 方法 评价 论文 创新 性 更 
多 局 限于 定量 地 从 论文 的 作者 机构、 期 刊 以 及 参考 文 
献 等 角度 评价 论文 ,而 未 能 真正 聚焦 论文 内 容 进行 分 
析 , 虽 然 同行 评议 的 定性 评价 方法 在 一 定 程度 上 弥补 
了 这 一 缺陷 ,但 其 固有 的 夷 端 也 影响 了 论文 创新 性 的 
评价 。 如 果 能 够 运用 自然 语言 处 理 技术 和 机 器 学 习 技 
术 辅 助 论文 创新 性 评价 ,通过 语义 分 析 构 建 语法 规则 ， 
抽取 创新 表征 词 ,提取 论文 创新 点 ,构建 创新 知识 库 ， 
并 通过 自动 分 类 或 聚 类 的 方法 识别 创新 主题 类 别 , 控 
掘 论文 创新 表达 模式 , 则 可 以 为 论文 创新 评价 提供 坚 
实 的 技术 保障 和 知识 基础 。 自 然 语言 处 理 技 术 在 实现 
文献 相似 度 的 计算 .主题 的 自动 识别 .关键 词 的 抽取 、 
主题 的 分 类 和 聚 类 等 方面 已 有 成 熟 的 应 用 。 杨 建 林 和 
钱 玲 飞 汪 基 于 词 频 原则 . 逆 文 档 频率 原则 以 及 共 词 分 
析 的 方法 ,构建 了 一 套 测 量 文档 主题 新 颖 度 的 计算 公 
式 ,并 采用 实证 法 论证 了 这 套 公式 的 合理 性 和 实用 性。 
梁 帅 和 高 继 平 “ 以 F5000 收录 的 大 量 论文 评审 意见 
为 文本 分 析 对 象 , 对 优秀 论文 评审 意见 进行 文本 挖掘 、 
关键 词 提取 和 内 容 分 析 ,通过 特征 词 频次 和 共 现 来 分 
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析 优秀 论文 的 特征 ,文章 指出 优秀 论文 的 特征 关键 词 
主要 包括 “创新 特征 "“ 价 值 特征 "“ 研 究 内容 " 和 * 写 
作 方 式 "四 个 方面 。 因 此 ,判定 论文 是 否 具有 创新 价值 
不 应 该 只 局 限 在 创新 点 的 新 颖 性 或 独创 性 上 ,其 创新 
成 果 的 有 用 性 和 有 效 性 ,方法 创新 的 科学 性 ,都 应 该 成 
为 判断 论文 创新 价值 的 评判 要 素 。 钱 玲 飞 等 "采用 
本 体 理论 和 技术 ,分 别 构造 了 学 术 创新 力 概念 本 体 与 
学 术 创新 力 知识 资源 本 体 ,将 这 些 本 体 实例 化 ,并 引入 
CNKI 期 刊 题 录 数据 的 高 频 关键 词 以 丰富 本 体 的 知识 ， 
定义 类 属 关系 ,构建 了 学 术 创新 力 本 体 ,该 研究 成 果 为 
后 续 学 术 创 新 力 自动 测度 研究 提供 了 坚实 的 知识 基 
uh. Drs T 构建 了 用 于 创新 力 评价 的 机 器 学 习 模 
型 ,并 利用 图 书 情报 领域 核心 期 刊 上 的 论文 数据 对 多 
个 模型 进行 实证 分 析 , 通 过 评估 不 同 机 器 学 习 模型 的 
= 现 得 出 了 适合 进行 创新 力 评价 的 机 器 学 习 模型 。 可 
由 文本 控 据 技术 及 机 器 学 习 方法 在 论文 创新 评价 方 
醒 淮 相当 的 应 用 潜力 和 价值 。 

@ 学 术 论文 创新 点 识别 与 抽取 

< 一 篇 学 术 论文 可 能 有 多 种 创新 ,也 可 能 只 有 少量 
便 久 ,但 不 管 量 的 多 少 ,只 要 是 创新 ,哪怕 是 一 个 点 一 


让 出 现在 研究 中 的 各 个 部 分 ,因此 对 学 术 论 文 的 创 
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新 起 进行 识别 是 非常 有 必要 的 。 如 上 节 所 述 ,已 有 的 
页 用 成 果 大 多 是 基于 创新 性 评价 ,提出 的 对 学 术 论文 
创 疡 识别 方法 也 大 多 从 创新 度 评价 角度 出 发 。 
-三 草 小 春 ”! 从 编辑 出 版 角度 出 发 认为 学 术 论 文 创 
新 局 义 包括 选 题 新 .立论 新 ,论证 新 ,论据 新 ,其 方式 有 
填补 空白 式 .补充 发 展 式 针 锋 相 对 式 、 破 立 变革 式 、 引 
进 式 等 ,只 要 具备 某 一 方面 的 特征 ,也 就 能 被 识别 为 学 
术 论文 的 创新 点 。 除 了 通过 以 上 角度 进行 创新 点 的 识 
别 ,还 有 研究 的 方式 方法 创新 .研究 思路 新 .研究 设计 
pam, 

从 学 术 论文 的 内 容 角度 看 ,含有 创新 知识 元 就 表 
示 有 创新 性 ,而 这 个 创新 知识 单元 就 是 论文 的 创新 
H7, T. Heinze 等 "认为 可 从 研究 中 识别 抽取 提出 
新 理论 .发现 新 现象 .提出 和 使 用 新 方法 ,发明 新 仪器 、 
从 新 角度 整合 现 有 理论 等 创新 点 。 周 露 阳 59 从 内 容 
上 的 新 论点 .新 论据 逐步 细 化 到 新 理论 .新 方法 .新 对 
策 .新 学 科 .新 数据 、 新 事实 并 继续 深化 提出 了 一 套 学 
术 文献 创新 点 的 识别 方法 。 也 有 学 者 认为 可 以 通过 参 
考 文献 的 位 置 来 定位 与 识别 学 术 论 文 的 创新 点 。 
学 者 们 提出 的 对 学 术 论文 的 创新 点 识别 多 是 宏观 理论 


层面 的 , 落 到 实际 操作 方面 ,还 是 会 存在 一 定 的 差距 。 

对 于 学 术 论 文 创新 点 的 抽取 ,一 种 方法 是 基于 论 
文 标题 与 数据 库 中 旧 的 论文 进行 相似 度 排序 ,抽取 出 
新 的 学 术 论文 的 创新 点 。 另 一 种 方法 是 从 论文 中 
抽取 出 关键 词 ,通过 计算 关键 词 频 度 ,再 与 检索 系统 上 
随时 间 发 展 用 户 检索 词 的 变化 ,抽取 出 创新 关键 
词 “” 。 较 全 面 的 方法 是 用 Keygraph 算法 对 论文 
的 研究 主题 进行 抽取 ,再 将 抽取 出 的 研究 主题 与 当前 
学 科研 究 前 沿 进行 相似 度 计 算 , 抽 取出 创新 研究 主 
题 ”。 也 有 研究 人 员 考 虑 将 论文 上 下 文 进行 对 比 , 通 
过 对 文本 上 下 文 进 行 新 与 日 的 挖掘 ,识别 抽取 出 技术 
或 发 明 等 创新 点 ” 。 
国外 对 文献 创新 性 的 研究 着 眼 点 大 都 是 从 新 闻 事 
件 、 网 页 文件 等 文本 新 颖 性 出 发 ,通过 多 种 思路 进行 创 
新 点 的 识别 与 抽取 。M，Breja “将 创新 点 分 为 事件 
级 、 句 子 级 \ 信 息 级 ,认为 新 句子 可 以 讨论 新 事件 .也 可 
以 提供 旧事 件 的 新 信息 ,本 质 上 是 通过 句子 级 来 进行 
创新 识别 的 ,通过 句子 的 相似 度 以 及 新 词 数 混合 度量 
的 方式 进行 句子 新 颖 性 排序 以 及 创新 点 的 挖掘 。 也 有 
研究 人 员 “ 从 事件 级 角度 出 发 对 创新 进行 识别 , 通 
过 文本 相似 度 判断 可 能 新 颖 的 文本 或 事件 '” 。 

实际 上 以 上 所 述 大 多 数 方法 本 质 上 是 一 致 的 , 即 
与 历史 子 集 进行 比较 得 到 创新 点 。 而 这 种 方法 存在 缺 
点 , 即 创建 全 面 的 历史 子 集 难 度 和 成 本 都 非常 高 ,从 而 
可 能 导致 标记 为 创新 且 可 供 训练 使 用 的 数据 不 足 ”， 
识别 效果 变 差 。 因 此 本 文 从 男 一 个 角度 出 发 ,选取 中 
英文 各 两 种 情报 学 期 刊 作为 样本 ,采用 信息 抽取 和 机 
带 学 习 的 方法 ,融合 句子 本 身 的 特征 识别 领域 创新 内 
容 ,探讨 学 术 论 文 的 创新 性 特征 ,进而 概括 近年 情报 学 
领域 的 论文 创新 情况 ,探索 创新 点 识别 和 抽取 的 新 方 
法 ,助力 学 科 领 域 科技 论文 创新 性 监测 ,从 而 促进 科学 
研究 创新 。 
3 Wisi 
3.1 数据 来 源 与 文本 预 处 理 

本 研究 以 论文 写作 的 规范 性 和 易 获 取 性 为 考量 指 
标 ,中 文 期 刊 论文 以 2013 - 2018 年 《情报 科学 》 和 《 数 
据 分 析 与 知识 发 现 》( 原 4 现代 图 书 情报 技术 》) 为 数据 
来 源 , 英文 期 刊 论文 选取 “Information Processing. & 
Management” 和 “Journal of Informetrics” 两 期 刊 2013 — 
2018 年 的 论文 作为 数据 来 源 ,并 对 其 中 的 会 议 纪要 、 
主持 人 导语 .发 言 稿 .征文 、 选 题 等 非 研 究 论 文 进行 了 
剔除 ,最终 数据 集 分 别 为 2 487 篇 和 1 050 篇 。 
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Saa, 闫 欣 阳 , KA, 等 . 中 外 情报 学 论文 创新 性 特征 研究 [J]. 图 书 情报 工作 ,2020 ,64(1) :80 -92. 


在 预 处 理 部 分 ,首先 将 所 有 论文 格式 转换 为 纯 文 
K. RPE R T. Dahl ”的 研究 对 论文 创新 点 


并 精炼 为 “有 用 性 、 新 家 性 有效 性 和 科学 性 ”。 其 中 ， 
新 颖 性 是 针对 问题 .方法 和 结果 三 大 要 素 而 言 的 , 它 


分 布 特征 进行 了 总 结 ,认为 论文 摘要 、 引 言 、 结 论 等 
部 分 可 以 集中 体现 创新 点 。 以 此 及 统计 结果 为 依 
据 ,提取 可 能 出 现 创新 句 的 论文 摘要 、 引 言 . 研 究 方 
法 .结果 .结论 部 分 。 之 后 对 各 部 分 内 容 进行 了 句子 
切 分 。 
3.2 ”创新 性 特征 引导 词 选取 

论文 创新 点 语言 特征 主要 体现 在 引导 词 ( 特征 
词 ) 和 表达 方式 两 方面 “-* 。 针 对 科技 文献 的 语言 特 
征 和 体裁 特征 ,利用 基于 规则 的 抽取 方法 可 以 准确 识 
别论 文中 的 “知识 主张 ”区 。 对 切 分 完成 的 句子 使 用 
Stanford CoreNLP 工具 进行 分 词 . 词 频 统 计 和 词性 标 
注 * 结 合 随机 抽取 数据 集 人 工 标注 的 结果 选取 并 确定 
了 攀 创 新 紧密 相关 的 语词 ,创新 性 特征 引导 词 选择 的 
AEGRO É * CSSCI 论文 评测 十 分 制 评分 标准 ”的 


是 判断 论文 创新 的 核心 要 素 :这 种 新 颖 性 简单 来 说 
就 是 论文 相 较 于 其 他 已 有 文献 的 “不 同 ” ,这 种 不 同 
可 以 是 对 已 有 文献 的 “局 部 改进 ” ,也 可 以 是 与 已 有 
文献 完全 不 同 的 “全 新 ”” 。 有 效 性 和 科学 性 更 多 是 
对 论文 的 研究 方法 的 要 求 ,有 用 性 和 有 效 性 则 是 对 
研究 结果 的 创新 要 求 。 初 步 确定 创新 性 特征 引导 词 
后 ,将 语词 引入 Hownet 进行 同 义 扩展 ,作为 本 文 最 终 
选取 的 创新 性 特征 引导 词 。 引导 词 包括 但 不 限于 标 
志 性 名 词 .形容 词 .少量 动词 和 词组 。 本 研究 基于 所 
选取 的 创新 性 特征 引导 词 ,同时 参考 张帆 和 乐 小 
由 5 研究 的 思路 ,通过 Stanford-parser 句法 树 解析 ， 
根据 标注 序列 和 结构 构建 引入 创新 性 引导 词 的 规 
则 ,对 句子 集 进行 抽取 ,构成 创新 句 集 。 其 中 英文 句 
子 19 088 个 ,中 文句 子 12 451 个 。 创 新 性 特征 引导 


“创新 程度 、 完 备 程度 、 难 易 程 度 、 成 果 价值 ” 四 要 素 ， 


创新 性 特征 引导 词 示 例 


词 示 例 及 对 应 例句 如 表 1 所 示 : 


表 1 创新 性 特征 引导 词 示例 及 对 应 例句 


例句 


.… :以 往 研究 多 采用 定性 方法 ,进行 理论 归纳 阐释 ,而 缺乏 定量 客观 研究 评测 ,从 而 降低 了 理论 成 果 的 可 实践 性 与 
可 评估 性 。 笔 者 试图 将 理论 与 实证 相 结合 ,以 突破 单一 层面 的 偏颇 性 [45] 。 
解决 … :该 方法 利用 本 体 提供 语义 知识 解决 查询 扩展 过 程 中 的 语义 偏差 和 歧义 问题 ,结合 用 户 查 询 意 图 进行 初始 查询 
扩展 概念 集 的 二 次 筛选 ,避免 查询 扩 


展 过 程 中 的 检索 主题 偏 移 问题 [41。 


验证 ,更 好 地 


novel 、approach introduced 


put forward 


(C no... exist, present the first--- 


3. P oasis 

通过 Stanford-parser 对 创新 句 进行 依存 句法 分 析 ， 
并 构建 规则 抽取 创新 对 象 和 创新 主题 。 依 存 句法 是 由 
法 国语 言 学 家 泰 斯 尼 耶 尔 最 早 提 出 的 ,他 认为 句子 中 
各 个 成 分 之 间 都 存在 着 支配 与 从 属 关 系 。 处 于 支配 地 
位 的 词 称 为 支配 词 或 核心 词 , 处 于 被 支配 地 位 的 词 称 
为 从 属 词 或 修饰 词 " 。 依 存 句 法 分 析 采 用 词语 对 的 
二 元 关系 形式 体现 句子 中 的 词语 之 间 的 依存 关系 , 通 
过 定位 语义 标注 类 型 为 创新 点 句 特征 动词 的 谓词 节 
点 ,可 以 进一步 识别 被 其 支配 的 主题 词 ,而 这 些 主题 词 
即 为 可 以 揭示 创新 之 处 的 核心 主题 词 中 。 本 研究 根据 
依存 句法 关系 的 这 一 特性 ,给 定 创新 对 象 和 主题 的 抽 


measures to put forward a conceptual framework for char acterizing this particular node 


通过 实验 验证 ,该 算法 发 现 效果 好 ,能 够 更 好 地 获得 热点 话题 [4 。 


Given these drawbacks, the principle of a novel data analytic citation prediction approach is introduced[48]. 


In this contribution we consider one particular node in a network, referred to as the ego. We combine Zipf lists and ego 


[49]. 


The unfortunate truth is that no map of altruistic missions and causes exists; the landscape of altruistic activity is virtually 


unknown. In this paper, we present the first maps of altruistic mission space[501. 


引导 的 关系 ) ,抽取 其 中 的 被 支配 成 分 作为 揭示 创新 对 
象 的 语词 ;@ 扩 展 查 找 此 关系 对 前 后 ,与 ROOT 词 和 创 
新 对 象 关联 紧密 (距离 最 近 ) 的 名 词 复合 修饰 关系 对 ， 
将 其 作为 本 句 的 创新 主题 。 对 于 中 文句 子 , 奉 存 在 
“topic” 关 系 对 , 则 直接 将 此 作为 创新 主题 。 对 于 不 存 
在 上 述 规 则 规定 的 关系 对 的 句子 ,制定 了 基于 句法 树 
的 补充 规则 :对 于 英文 句子 ,抽取 标签 为 “JJ” (形容 
词 ) 及 其 下 位 修饰 标签 为 “NN” (常用 名 词 ) 的 关系 对 ， 
并 依据 创新 性 引导 词 集 对 关系 对 进行 筛选 ,将 最 终 得 
选 得 到 的 关系 对 中 的 被 修饰 部 分 作为 创新 对 象 ;对 于 
中 文句 子 ,由 于 标签 更 为 丰富 ,所 以 扩展 规则 为 抽取 
“ADIP” (形容 词 短语 ) 及 其 下 位 修饰 标签 为 “NP”( 名 


取 规 则 如 下 :中 从 依存 关系 对 集合 中 识别 出 可 以 揭示 
创新 点 的 核心 词 ( 即 ROOT 词 ) ;@ 从 含有 核心 词 的 依 
存 关系 对 集合 中 筛选 直接 宾语 关系 ( 即 "dobj "标识 符 


C 


词 短语 ) 的 关系 对 ,同样 依据 创新 性 引导 词 集 对 关系 对 
进行 筛选 ,将 最 终 筛 选 得 到 的 关系 对 中 的 被 修饰 部 分 
作为 创新 对 象 ;3 抽取 “IP”( 简 单 从 句 ) 的 最 内 层 标 签 
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“ NP” 作为 创新 主题 。 
3.4 创新 句 分 类 
ZEBERUS sr. ^ 在 论文 中 对 创新 点 进行 了 细 化 和 
具体 化 ,将 创新 点 类 别 归 纳 为 | 新 发 现 、 新 方法 、 新 技 
术 .新 观点 ,新 理论 .新 思路 、 新 工艺 .新 应 用 、 新 贡献 、 
新 设想 | 十 个 方面 ,并 对 这 些 创新 点 的 表达 内 容 和 常用 
的 特征 词语 进行 了 总 结 归纳 。 本 研究 以 依存 句法 分 析 
结果 为 基础 ,抽取 创新 句 特征 ,加 入 了 依存 句法 标签 并 
向 量化 以 提高 识别 的 准确 率 ,在 借鉴 李 瑛 和 周 立 ” 的 
分 类 基础 上 ,按照 创新 句 描述 的 创新 方面 ,将 句子 归 为 
4 大 类 8 小 类 ,分 类 及 表达 内 容 解释 如 表 2 所 示 : 
X2 创新 句 分 类 框架 及 类 别 内 涵 解 释 
类 别名 称 类 别 主要 表达 内 容 
理论 创新 发 现 新 规律 /联系 
构建 /改善 /完善 新 模型 
得 到 新 理论 
提出 新 方法 /技术 /思路 
提出 新 对 策 /建议 /应 用 
通过 文献 调研 ,采用 某 种 理论 / 方 
法 ,对 研究 对 象 的 概念 进行 归纳 / 
完善 /界定 
研究 方法 创新 运用 新 方法 .引入 新 数据 
研究 问题 /对 象 创新 。 尚未 解决 /亟待 解决 的 问题 ` 鲜 有 
某 方面 的 研究 .下 一 步 研究 计划 、 
研究 局 限 .研究 视角 的 创新 研究 
热点 .研究 有 待 进一步 深化 


7c 
qn 


观点 /概念 创新 


202304.00380v1 


>< 按 照 上 述 分 类 ,采用 SVM 算法 对 人 工 标注 的 训练 
集 哪 行 训练 和 测试 ,并 对 余下 的 句子 语 料 进行 分 类 预 
测 守 结果 的 评价 指标 如 表 3 和 表 4 所 示 : 

LRI ”中 文 情报 学 期 刊 论文 创新 句 分 类 结果 评估 指标 


precision recall fl -score 
micro avg 0. 84 0.69 0.75 
macro avg 0.72 0.64 0.68 


表 4 英文 情报 学 期 刊 论文 创新 句 分 类 结果 评估 指标 


precision recall f1-score 
micro avg 0.84 0.77 0.81 
macro avg 0.9 0.78 0. 83 


4 结果 分 析 与 讨论 


4.1 创新 句 统计 信息 

对 创新 句 集 进行 统计 ,得 到 平均 每 篇 中 文 期 刊 论 
文 5 句 左右 ,每 篇 英文 期 刊 论 文 18 名 左右 。 各 部 分 创 
新 句 分 布 比例 见 图 1 .图 2。 

对 比 图 1 和 图 2, 可 以 发 现 创 新 名 在 中 外 情报 学 论 
文中 分 布 情况 较为 一 致 ,英文 论文 的 创新 名 分布 更 为 


均衡 。 有 30% 以 上 的 创新 名 出自 引言 部 分 ,一 方面 是 
由 于 引言 部 分 一 般 是 论文 的 必 备 项 ,本 身长 度 较 摘 要 
长 ,相对 于 摘要 对 创新 点 表达 的 简洁 ,引言 作为 论文 的 
第 一 部 分 需要 对 创新 的 表达 进行 拓展 和 丰富 ,除了 适 
当 介绍 创新 性 内 容 外 ,还 包括 创新 的 缘起 .目的 .手段 ， 
创新 点 的 呈现 方式 以 叙述 式 表达 为 主 ” 。 由 于 作者 
“可 以 自 定义 论文 主体 部 分 的 编写 格式 ”” ,使 得 “ 研 
究 结 果 ” 并 不 是 论文 的 必要 部 分 ,其 呈现 方式 十 分 多 
样 ,因此 这 一 部 分 创新 句 比 例 不 高 。 但 所 选 英 文 情报 
学 期 刊 论文 中 研究 结果 部 分 的 比例 仍 高 于 摘要 ,说 明 
英文 情报 学 期 刊 论文 写作 相对 规范 。 而 结论 的 创新 点 
揭示 用 语 较 少 ,主要 是 表述 创新 的 价值 .作用 和 意义 ,对 
创新 性 本 身 的 表述 通常 是 隐 性 和 间接 的 。 总 体 来 看 ,中 
英文 情报 学 期 刊 论 文 的 创新 名 分布 比例 差距 不 大 ,英文 
期 刊 论文 的 篇 平均 数 更 高 ,对 创新 点 的 表达 更 多 。 
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图 1 中 文 期 刊 论文 中 创新 句 在 各 部 分 的 分 布 比例 
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图 2 英文 期 刊 论文 中 创新 句 在 各 部 分 的 分 布 比例 


4.2 论文 创新 对 象 特征 分 析 

创新 对 象 的 词 频 及 对 应 序号 见 图 3、 图 4。 可 以 看 
到 ,中 英文 情报 学 论文 的 创新 对 象 频率 排序 都 基本 符 
合 齐 普 夫 定 律 , 即 排序 徘 前 的 创新 对 象 占据 了 创新 对 
象 的 绝 大 部 分 ,而 排序 菲 后 的 创新 对 象 则 数量 非常 稀 
少 。 相 比 之 下 ,英文 情报 学 期 刊 论文 的 图 像 更 为 “ 陡 
lij" ,反映 了 英文 情报 学 期 刊 论文 的 创新 对 象 更 为 集 
中 。 且 由 于 英文 论文 的 创新 对 象 数 量 更 多 ,其 长 尾 效 
应 也 更 为 明显 。 
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< 对 创新 对 象 进行 具体 探究 ,可 以 看 到 “方法 ”上 的 
创 跌 在 中 英文 情报 学 期 刊 论文 中 都 占 了 非常 大 的 比 
重 3 说 明 方法 的 创新 是 近年 情报 学 领域 的 重点 研究 方 
商 @, 而 从 相对 频率 来 看 ,“ 方 法 "创新 在 英文 论文 中 占 
比 更 高 ,“method” 和 “approach” 的 频率 之 和 超过 一 半 ， 
说 明 方法 创新 在 英文 情报 学 期 刊 论文 中 占 大 部 分 。 而 
研究 方法 的 “方法 ”创新 , 即 方法 论 (methodology ) 的 创 
新 则 占 4% 左右 ,比例 较 小 。 相 比 之 下 ,中 文 论文 中 的 
方法 创新 比例 虽然 最 高 ,但 其 中 包含 1% 左右 的 研究 
方法 创新 ,高 层次 方法 创新 的 比例 仍然 较 低 。 魏 瑞 
斌 本 通 过 对 国内 共 词 分 析 研 究 的 部 分 成 果 的 进行 分 析 ， 
同样 发 现 方法 研究 的 整体 创新 的 论文 数量 很 少 。 他 认 
为 研究 方法 创新 需要 从 方法 的 原理 层面 有 所 突破 ,或 者 
是 对 方法 的 某 些 流程 进行 改进 。 这 需要 研究 者 对 研究 
方法 有 非常 深入 的 理解 ,并 能 够 提出 自己 的 解决 方案 ， 
因而 其 创新 难度 较 大 。 中 文 论文 各 创新 对 象 频率 差距 
相对 较 小 ,除去 一 些 泛 用 词 ,可 以 看 到 , 除 方法 之 外 , 按 
照 频次 顺序 ,数据 问题. 算法、 模型 .技术 、 理 论 是 中 文 
情报 学 期 刊 论文 进行 创新 的 重点 对 象 ,模型 .结果 、 杠 


T0 0000 


4 英文 期 刊 论 文中 创新 对 象 频率 分 布 


架 . 算 法 ,问题 数据 ,测量 是 英文 情报 学 期 刊 论文 进行 
创新 的 重点 对 象 。 二 者 重合 的 部 分 仍 比较 多 ( 如 数据 、 
问题 模型 .算法 ) ,这 些 也 是 近年 情报 学 领域 的 主要 创 
新 方向 。 相 比 之 下 ,英文 情报 学 期 刊 论文 更 侧重 细节 上 
的 创新 ,在 理论 方面 创新 较 少 ,但 更 多 地 关注 了 “框架 
(framework)” 的 创新 ( 见 图 5、 图 6、 表 5)。 这 与 刘 齐 进 
等 "得 到 的 结论 类 似 。 刘 齐 进 等 对 1951 - 2012 年 间 
(ACM 美国 计算 机 学 会 全 文 数据 库 》 中 收录 的 “计算 
机 ”学 科 的 21 万 多 篇 英文 文献 进行 分 析 , 发 现 该 领域 大 
部 分 创新 集中 在 方法 的 创新 (如 approach, method, 
way) ,以 及 具体 应 用 的 创新 (如 algorithm，model ，appli- 
cation) ,关于 理论 的 创新 (如 idea) 则 相对 较 少 ” 。 

对 比 两 中 文 情报 学 期 刊 ( 见 表 6) ,可 以 发 现 论文 
创新 对 象 呈现 明显 的 不 同 ,主要 与 期 刊 的 栏目 设置 及 
定位 有 关 。《 人 情报 科学 》 设 有 理论 研究 和 业务 研究 的 
栏目 ,因此 期 刊 的 理论 ,技术 ,方法 创新 相对 占 比 较 高 。 
而 《数据 分 析 与 知识 发 现 》 聚 焦 各 行 各 业 中 以 大 数据 
为 基础 、 依 靠 复 人 杂 挫 掘 分 析 进行 知识 发 现 与 预测 E 
持 决 策 分 析 和 政策 制定 的 研究 与 应 用 ,致力 于 提供 理 
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论 指导 ,技术 支持 和 最 佳 实践 。 依 靠 并 融 汇 计算 机 科 
学 .科学 计量 学 社会 计量 学 .网络 计量 学 数据 科学 、 
管理 科学 ,预测 分 析 、 循 证 政策 分 析 等 领域 ,帮助 人 们 
从 数据 发 现 知识 、 从 知识 提炼 智慧 (洞察 力 ) .从 知识 
和 智慧 推演 并 设计 解决 方案 ,这 样 的 倾向 使 其 论文 
中 算法 实验 等 方面 的 创新 比较 突出 。 

两 本 英文 情报 学 期 刊 的 高 频 创 新 对 象 相 对 比较 
一 致 ( 见 表 7) ,不 同 的 部 分 同样 主要 与 期 刊 的 定位 有 
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CN ss 


Mex & dE 7T; : 

E3 
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关 。 除 方法 和 模型 外 ,Information Processing & Man- 
agement 期 刊 论文 的 创新 对 象 比较 宽泛 、 全 面 , 算 法 、 
框架 、 研 究 问题 实验、 特征 .技术 等 都 有 包括 ,期刊 
本 身 定位 也 在 计算 机 和 信息 科学 的 交叉 领域 。Jour- 
nal of Informetrics 的 论文 以 信息 科学 定量 的 研究 为 
主 ,因此 其 论文 的 创新 对 象 特点 比较 鲜明 ,指标 、 数 
据 、 利 用 的 创新 比较 突出 。 
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6 英文 期 刊 论文 创 新 对 象 频率 Top200 ig zs 
表 5 中 英文 期 刊 论文 创新 对 象 重合 部 分 ( 高 频 ) 4.3 论文 创新 主题 特征 分 析 
中 文 论文 创新 对 象 ” ”频率 占 比 。 ”英文 论文 创新 对 象 ” ”频率 占 比 对 创新 主题 进行 共 现 分 析 , 得 到 图 7 和 图 8 所 示 
方法 22. 28% method 32.03% 的 共 现 网 络 。 边 的 粗细 代表 边 的 权重 ,节点 的 颜色 表 
数据 So approach n dd 示 模 块 化 分 类 的 情况 。 可 以 很 明显 地 看 出 ,在 节点 数 
bol X bibi 相差 不 大 的 情况 下 ,两 图 边 数 差距 非常 大 ,中 文 情报 学 
模型 /算法 9.4846 algorithm 8. 7396 
Pus PM 主题 共 现 网 络 的 图 密度 为 0. 029 ,英文 情报 学 主题 共 
data 5.4896 现 网 络 的 图 密度 为 0. 649, 情报 学 领域 的 英文 论文 各 
主题 语词 共 现 频繁 ,交集 更 多 ,联系 紧密 ,并 以 “方法 ” 
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表 6 ”中文 情报 学 期 刊 论文 创新 对 象 对 比 


《情报 科学 ) 创 新 对 象 mene OSU 频率 此 
数据 17.34% 方法 41.77% 
问题 16. 85% 算法 25.4296 
方法 15. 6396 特征 19.9796 
技术 9. 63% 问题 18.16% 
理论 8. 99% 模型 16.3496 
模型 8.3596 数据 12.71% 
特征 5.78% 效果 12.7196 
结果 5.14% 技术 10. 9096 
算法 5.1496 模式 9. 08% 
应 用 5.1496 实验 7.2696 


R7 英文 情报 学 期 刊 论文 创新 对 象 对 比 


“Information Processing & “Journal of Informetrics” 
ooer amag Mnt 创新 对 象 i 
O method 36. 50% method 25. 04% 
eo approach 24. 3096 approach 17. 00% 
co model 20. 60% model 10. 00% 
rm 12. 9096 index 9.0096 
= results 13. 3096 indicators 8.0096 
T algorithm 12. 00% data 7.20% 
[e framework 11. 0096 results 7.2096 
CN system 9. 0096 framework 5.8096 
C — 8. 0096 methodology 5.4096 
N problem 75. 00% technique 5.40% 
> 2 experiment 6. 0096 performance 4.9096 
x< feature 5. 0096 system 4.5096 
© measure 4. 0096 measure 4.02% 
C technique 3.0096 use 4.0296 


de “模型 "等 为 核心 构成 非常 密集 的 网 络 。 相 比 
之 下 ,中 文 情报 学 研究 主题 相对 分 散 和 独立 。 近 年 英 
文 情 报 学 的 创新 主题 大 致 可 以 分 为 :文献 计量 类 ( cita- 
tion , indicator, journal, research evaluation collaboration 
…) ;文本 挖掘 类 (classification „text topic , detection -- ) ; 
信息 系统 相关 (system , search , framework , recommenda- 
tion…) 以 及 与 自然 语言 结合 的 机 器 学 习 类 (algorithm、 
cluster , language , word , training, sentiment --) o H P X 
献计 量 大 类 包含 的 主题 与 刘 智 锋 等 ”对 “Journal of 
Informetrics” 的 研究 结果 较为 一 臻 。 刘 智 锋 等 选取 
2007 -2017 年 “Journal of Informetrics ”论文 作 为 标注 数 
据 源 , 构 建 语义 功能 标注 数据 集 并 进行 分 析 , 发 现 信 息 
计量 学 领域 主要 的 研究 主题 包含 有 计量 指标 、 科 学 评 
价 及 排名 .科研 合作 、 引 用 分 析 “” ,反映 了 这 些 主 题 是 
这 个 领域 核心 的 创新 研究 主题 ,有 旦 相对 稳定 。 近 年 中 
文 情 报 学 的 创新 主题 大 致 可 以 分 为 :图 书馆 相关 类 ( 数 


字 图 书馆 、 高 校 图 书馆 、 图 书馆 服务 、 资 源 …… ) ;算法 
类 (遗传 算法 \ 优 化 算法 、 神 经 网 络 …… ) ;社交 媒体 类 
(社交 网 站 \ 话 题 ……) ;社区 研究 类 (科研 /学 术 / 健 康 
社区 、 成 员 、 影 响 力 …… ) ;企业 知识 管理 类 (知识 转 
移 、 个 体能 力 、 创 新 ……) ;本 体 类 以 及 文献 计量 类 7 个 
大 类 。 同 样 由 于 联系 过 于 紧密 ,英文 主题 难以 像 中 文 
一 样 进行 更 细 的 区 分 ,但 也 能 看 出 ,在 高 频 主题 中 英文 
情报 学 期 刊 论文 以 自然 语言 处 理 和 文献 计量 相关 内 容 
为 主 ,主题 较 集中 ,而 中 文 情 报 学 期 刊 论文 主题 更 加 分 
散 和 多 样 。 这 虽然 与 期 刊 选择 有 一 定 关 系 ,但 也 能 一 
定 程 度 上 反映 中 文 情 报 学 期 刊 收 录 论 文 的 综合 性 和 英 
文 情 报 学 期 刊 的 专业 性 以 及 研究 主题 的 不 同 特点 。 


Mobi — 能力” 期 证 


问题 [a Ti 
建设 


pnt [pos 种 学 


图 7 中 文 期 刊 论文 创新 主题 共 现 网 络 


4.4 ”论文 创新 类 别 分 布 

论文 创新 句 的 类 别 分 布 如 图 9 和 图 10 所 示 , 并 将 
各 类 创新 的 核心 表达 范式 归纳 为 表 7 和 表 8。 中 文 论 
文中 各 类 创新 句 的 分 布 呈 现 不 均衡 的 状态 。 第 6 类 和 
第 7 类 即 观 点 /概念 创新 和 研究 方法 创新 较 少 ,而 第 4 
类 和 第 8 类 即 提出 新 方法 /技术 /思路 和 研究 问题 /对 
象 创新 占 比 则 较 高 。 相 比 之 下 ,英文 论文 创新 点 分 布 
更 加 不 均衡 ,将 近 80% 的 创新 句 集中 分 布 在 第 1 类 
(发 现 新 规律 /联系 ) .第 4 类 和 第 8 类 的 创新 类 别 上 ， 
第 2 类 、 第 3 类 、 第 5 类 和 第 6 类 则 较 少 。 英 文 和 中 文 
论文 的 创新 类 别 都 集中 分 布 在 第 4 类 和 第 8 类 , 即 提 
出 新 方法 /技术 /思路 和 研究 问题 对象 创 新 上 。 这 与 
“论文 创新 对 象 特征 分 析 "一 节 的 结果 形成 呼应 , 即 研 
究 问题 和 针对 某 一 具体 研究 对 象 提 出 新 方法 是 近年 中 
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Vets E Re cS 3x OR 8]. Mae rp LEUR 
此 中 英 论文 创新 点 分 布 的 最 大 差异 体现 在 第 2 类 创 
Rea /完善 新 模型 ) .第 5 类 创新 (提出 新 对 

X 建 议 / 应 用 ) 和 第 7 类 创新 (运用 新 方法 .引入 新 数 
据 兄 的 占 比 上 。 中 文 论文 的 第 2 类 和 第 5 类 创新 占 比 
相对 较 高 ,反映 了 中 文 论文 中 综述 类 和 定性 评价 类 占 
比 幅 对 较 高 ,中文 的 综述 类 论文 通过 梳理 国内 外 相关 
主题 的 研究 理论 成 果 和 实践 进展 来 提出 对 某 一 产品 、 
某 @@ 行 业 、 学 科 或 领域 建设 发 展 的 对 策 和 应 用 ,评价 类 
论文 多 综合 运用 专家 访谈 法 .问卷 调查 法 和 层次 分 析 
法 构建 评价 指标 体系 ,少数 会 结合 数理 统计 学 的 知识 
或 自然 语言 处 理 技术 对 模型 或 方法 的 信和 度 和 效 度 进行 
实证 分 析 检 验 。 这 也 反映 了 我 国情 报 学 期 刊 论文 在 研 
究 方法 上 创新 不 足 ,运用 其 他 学 科 的 研究 方法 .引入 新 
数据 不 是 主流 。 而 英文 论文 中 第 7 类 比重 相对 较 高 ， 
说 明 英文 情报 学 期 刊 刊载 的 研究 不 仅 提出 的 具体 新 方 
法 多 ,运用 新 研究 方法 的 也 更 多 ,引入 新 数据 的 情况 也 
相对 较 多 ,在 定量 实证 方向 上 比较 占 优势 ,侧重 于 研究 
成 果 的 应 用 性 和 实践 性 。 这 也 一 定 程度 上 反映 了 中 西 
方 学 者 在 论文 写作 方面 思维 的 差异 , 纪 蒜 琴 c9 认为 
“西方 文化 中 数理 逻辑 的 发 达 以 及 西方 人 的 逻辑 型 理 
性 思维 模式 决定 了 英语 文章 在 陈述 论证 时 ,倾向 于 较 
多 地 引用 事实 ,尤其 是 调查 数据 和 数据 事实 。 相 比 之 
下 ,汉语 文章 则 较 少 运用 数据 和 实验 结果 来 论证 观 
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8 英文 期 刊 论 文 创 新 主题 共 现 网 络 


点 "。 第 3 类 (得 到 新 理论 ) 和 第 6 类 (观点 /概念 创 
新 ) 在 中 英文 论文 中 占 比 都 很 低 , 进 一 步 反 映 了 近年 情 
报 学 理论 创新 推动 缓慢 的 事实 。 魏 瑞 斌 和 刘 宇 ”' 通 
过 对 1996 - 2012 年 期 间 的 434 篇 情报 学 博士 论文 的 
标题 进行 文本 分 析 ,也 认为 国内 情报 学 论文 当中 ,应 用 
研究 、 实 证 研究 的 成 果 较 多 ,而 纯 理 论 的 研究 成 果 较 
少 , 这 也 是 由 于 理论 创新 是 论文 创新 中 最 有 价值 也 
难度 最 大 的 创新 方式 。 
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中 文 期 刊 论文 中 各 类 句子 分 布 比例 


论文 创新 表达 范式 
通过 对 基于 机 器 学 习 训 练 出 的 分 类 集合 的 内 容 进 
行 定 性 的 分 析 ,本 文 对 中 英 8 种 类 别 的 论文 创新 表达 
范式 进行 了 归纳 总 结 ,得 到 如 表 S 和 表 9 所 示 的 结果 。 
可 以 看 出 无 论 是 哪 种 类 别 的 创新 ,都 是 建立 在 对 现 有 
文献 的 回顾 和 评估 的 基础 上 的 ,通过 文献 回顾 了 解 研 
究 的 理论 基础 , 理 出 研究 问题 的 发 展 脉络 ,了 解 之 前 的 
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图 10 ”英文 期 刊 论文 中 各 类 句子 分 布 比例 


研究 已 经 解决 了 什么 问题 ,还 未 解决 什么 问题 ,有 何不 
足 之 处 ,从 而 为 自身 的 研究 创新 提供 新 的 方向 和 思路 。 
其 次 ,创新 方法 需要 真实 有 效 , 即 论据 经 得 起 考证 , 数 
据 真 实 有 效 ,提出 的 方法 能 够 通过 实验 的 检验 。 最 后 ， 
创新 结果 需要 有 价值 ,这 从 特征 词 提升 .优化 .改善 有 
效 的 ,理论 价值 .实践 价值 等 可 以 看 出 一 二 。 

Oks 中 文 情报 学 期 刊 论文 各 类 创新 核心 表达 范式 
CGI 新 类 别 


核心 表达 范式 


EIDER M.. 理论 出 发 /借鉴 … 理 论 ,运用 … 方 法 进行 /展开 
e 分 析 , 发 现 …( 规 律 ) ,提升 了 … 水 平 /效果 
E 

MEERE ”研究 基于 … 构 建 模型 解决 … 问 题 /引入 … 改 进 现 有 模 

gren 型 ,通过 实验 证 明 /表明 … 预 测 效果 /性 能 /精度 得 到 
优化 /提升 

AIEO ”。” 现 有 研究 缺乏 对 … 的 界定 ,通过 文献 调研 ,在 … 分 析 

e 的 基础 上 ,将 .… 定义 为 /认为 … 

得 清新 方法 / 技 。 针对 … 问 题 ,为 改善 /优化 /填补 现 有 研究 ,提出 了 … 

Abs 方法 /算法 ,实验 证 明 该 方法 能 有 效 … ,为 … 提 供 新 思 

E oun 路 /途径 /参考 

DOn 利用 /使 用 /应 用 … 方 法 对 … 分 析 , 解 决 … 问 题 /对 象 ， 

人 得 到 更 好 的 … 效 果 

ARAARA “(同类 主题 或 研究 对 象 的 研究 中 ) 存在 缺陷 /不 足 / 问 

H- 题 ,需要 进一步 /建立 /考虑 …, 或 者 从 … 视 角 出 发 / 提 

O 供 了 … 的 新 视角 

是 让 新 对 策 / 建 在 .基础 上 提出 .建议 ,将 … 应 用 于 以 … 得 到 新 的 

议 / 应 用 效果 

得 到 新 理论 针对 … 研 究 中 存在 的 缺陷 / 鲜 有 … 方 面 的 研究 /针对 
… 新 的 现象 进行 研究 ,或 者 将 … 的 技术 方法、 理论 应 


用 到 新 的 对 象 ( 领域 学科, 事件 ) 上 


5 研究 结论 


从 论文 中 识别 出 创新 特征 与 研究 新 进展 对 于 领域 
内 的 科学 研究 具有 重要 意义 。 本 研究 从 句子 级 创新 性 
识别 出 发 ,利用 句子 结构 和 句法 特征 ,采用 信息 抽取 和 
机 器 学 习 的 方法 分 析 创新 的 类 别 、 对 象 及 主题 ,从 实证 
研究 角度 揭示 情报 学 近年 的 创新 特征 与 进展 。 研 究 得 
出 以 下 结论 :首先 ,从 创新 的 表达 来 看 ,中 外 情报 学 论 
文 创新 句 的 分 布 情况 基本 一 致 ,其 中 引言 是 创新 点 集 
中 表述 的 部 分 ,但 是 英文 期 刊 论文 在 行文 方面 更 加 规 
范 ,创新 的 表达 更 丰富 ;中 英文 创新 点 的 表达 都 较为 规 


表 9 英文 情报 学 期 刊 论文 各 类 创新 核心 表达 范式 


创新 类 别 核心 表达 范式 
发 现 新 规律 /联系 it was /we found that…(v)more/higher/ better than…. 
构建 /改善 /完善 We propose/introduce/develop new model (s) for/that/ 
新 模型 based on… 
The proposed model can… 
观点 /概念 创新 和 is defined as follows…, 
We defined…'to… 
In this paper, we deploy/propose an approach that can/ 
lo s 
提出 新 方法 / 技 
术 / 思 路 approach is proposed/ 
i «has been solved following a …approach . 
the proposed approach has improved/outperforms:-- 
our dataset covers» 
研究 方法 创新 we use …data about…/apply…methodology introduced 


by … 


the question ask for… 


研究 问题 /对 象 创 


It also leads to new questions about +++ 


新 Our study aims to address the following questions … 
提出 新 对 策 / 建 

议 /应 用 the suggestions we provided will … 

D 


得 到 新 理论 


范 ,有 一 定 规律 可 循 。 其 次 ,从 创新 性 特征 来 看 ,分 析 
创新 对 象 特 征 和 类 别 分 布 发 现 ,创新 对 象 频率 分 布 符 
合 齐 普 夫 定律 , 即 高 频 创 新 对 象 占据 了 创新 对 象 的 绝 
大 部 分 数量 ,具体 方法 的 创新 是 近年 情报 学 领域 研究 
的 主要 方向 ,数据 问题 ,模型 .算法 等 的 创新 也 是 研究 
人 员 们 比较 关注 的 方面 ,而 在 研究 方法 上 创新 不 足 。 
相 较 而 言 ,英文 情报 学 期 刊 论 文 更 侧重 细节 上 的 创新 ， 
在 理论 方面 创新 更 少 ,但 较 多 地 关注 了 “框架 ”的 创 
新 ;中 英文 情报 学 期 刊 论文 的 创新 性 特点 都 反映 了 应 
用 研究 实证 研究 的 成 果 较 多 ,而 理论 创新 推动 缓慢 ， 
这 也 是 由 于 理论 创新 是 论文 创新 中 最 有 价值 也 是 难度 
最 大 的 创新 方式 。 对 论文 创新 主题 特征 分 析 发 现 , 英 
文 情报 学 期 刊 论文 以 自然 语言 处 理 和 文献 计量 相关 内 
容 为 主 ,主题 较 集中 ,而 中 文 情 报 学 期 刊 论文 主题 具有 
多 样 和 分 散 的 特点 ,一定 程 度 上 反映 了 中 文 情报 学 期 
刊 收录 论文 的 综合 性 和 英文 情报 学 期 刊 的 专业 性 以 及 
研究 主题 有 差异 的 特点 。 

基于 以 上 研究 结论 ,情报 学 领域 的 研究 者 不 仅 应 
该 关注 具体 层面 的 方法 .问题 .技术 创新 ,还 应 该 更 多 
地 尝试 难度 更 大 的 、 更 高 层次 的 研究 方法 和 理论 创新 ， 
注重 学 科 交 叉 ,寻找 新 的 突破 点 ,促进 情报 学 科 理 论 发 
展 由 量变 到 质变 ,为 情报 学 向 更 成 熟 的 层面 发 展 葛 定 
理论 基础 。 对 情报 学 研究 者 来 说 ,以 上 结论 还 可 以 为 
日 后 研究 的 创新 方向 和 论文 写作 中 的 创新 点 表达 提供 
参考 。 本 文 的 初步 尝试 还 表明 ,通过 信息 抽取 和 句法 


By/based on… ，we demonstrate that…. 
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分 析 对 论文 创新 点 进行 分 析 具 有 一 定 的 可 行 性 和 价 
ee oae e e E 
论文 创新 性 分 析 , 进 而 对 整个 领域 的 研究 创新 进展 有 
tp 
可 以 为 创新 性 的 内 容 评 佑 提供 方法 参考 ,成 为 现 有 创 
新 性 评价 体系 的 补充 。 

然而 ,本 研究 也 存在 一 定 的 局 限 性 :研究 利用 句子 
结构 和 句法 特征 对 单一 句子 进行 创新 性 识别 ,没有 深 
入 考虑 句子 上 下 文 之 间 逻 辑 层面 的 语义 联系 ,这 可 能 
会 对 研究 结果 造成 一 定 的 影响 。 另 外 ,研究 只 抽取 了 
国内 外 各 两 种 期 刊 的 论文 ,样本 的 覆盖 面 还 不 够 全 面 ; 
句子 抽取 结果 受 句 法 分 析 影 响 ,对 否定 词 等 考虑 不 周 ， 
相关 抽取 规则 还 待 完善 。 针 对 以 上 提 到 的 研究 局 限 
性 5 在 未 来 的 研究 中 将 进 一 i ed 
大- 改进 对 论文 创新 句 抽取 算法 ,进一步 提高 抽取 的 全 
tl 
时 间 轴 添加 进去 ;另外 ,选择 领域 内 或 者 更 多 学 科 的 
同 论文 进行 实证 研究 ,并 加 入 时 间 线 的 对 比 ,更 加 全 
质地 探究 论文 创新 性 特征 ,助力 更 好 地 实现 细 粒 度 知 
Wee. 
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Research on Characteristics of Innovation in Chinese and International 
Academic Literature of Information Science 
Cao Shujin Yan Xinyang Zhang Qian Zhuo Yiling 
School of Information Management, Sun Yat-sen University, Guangzhou 510006 
Abstract: | Purpose/significance | This paper comprehensively uses qualitative and quantitative methods to an- 
alyze and compare the innovative features and expression paradigms of Chinese and foreign information science papers 
in recent years, thus revealing the innovative characteristics of papers in the field of information science, discovering 
the knowledge relationship within the innovative sentences, and conducting a more fine-grained analysis of the inno- 
vation of the papers, which provides conditions for the discovery and utilization of innovations in the research field, 
and at the same time, enriches the ways of innovation monitoring of research papers and promotes scientific research 
innovation. | Method/process | Starting from the sentence-level innovative identification, two kinds of information 
science journals in Chinese and English are selected as samples, and the methods of NLP and machine learning are 


"used to the process of information extraction and classification. This paper extended the extraction of innovative sen- 


hces from the existing abstract to the full text, moreover made full use of sentence structure and syntactic features to 


dentify innovative content in the field, and explored the characteristics of Chinese and foreign information science 
"papers in terms of innovation objects, themes, categories, etc. , meanwhile made a comparative analysis. Finally, 
© Ae s : EN 

through qualitative analysis of the automatic classification of document collections, the paper summarized the expres- 


(sion paradigms of the innovation of Chinese and foreign papers. | Result/conclusion | From the expression of innova- 


tion points, the distribution of innovative sentences in Chinese and foreign information science papers is basically the 
e 
(same. The expression of innovation in foreign papers is richer. In terms of the characteristics of innovation, the inno- 


tion topics of foreign information science journals are concentrated, while the Chinese ones are diversified and scat- 
iered. The innovation of specific methods is a hot spot in the field of information science in recent years. The innova- 


Win characteristics of both Chinese and foreign information science journal papers reflect the results of applied re- 


f 


Search and empirical research are richer, while the trend of theoretical innovation is slow. 


Keywords: characteristics of innovation academic literature dependency parsing classification of sentences 
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专题 :政府 开放 数据 用 户 行为 与 服务 研究 高 校 图 书馆 空间 认 知 实证 研究 一 一 以 利益 相关 者 为 
( 段 竞 清 教 授 组 织 ) 视角 (EEIE BFA) 
期 刊 论文 视 域 下 我 国 图 情 学 科 的 研究 模式 探究 免费 与 付费 在 线 问 答 社 区 用 户 参 与 行为 的 比较 研究 
( 黄 国彬 HE E) (FAEK 赵 宇 翔 ” 刘 周颖 等 ) 
基于 组 合 赋 权 - TOPSIS 法 的 高 校 图 书馆 数字 资源 服 国外 图 书馆 展览 服务 研究 与 实践 及 借鉴 
务 绩效 评价 (RÆ) (王峰 ) 
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